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复杂 场景 文本 段 识 别 
ESB, IK F, PEN 


(清华 大 学 电子 工程 系 ,北京 100084) 


摘 要 : 针对 背景 复杂 或 者 存在 字符 黏 连 时 文本 段 图 片 无 法 准确 切 分 的 情况 进行 了 研究 ， 提 出 了 一 种 复杂 场景 文本 段 
识别 方法 。 该 方法 利用 图 像 和 文字 序列 的 相关 性 设计 双向 递归 神经 网 络 对 图 像 特征 序列 进行 编码 ， 然 后 设计 集成 的 连 
接 时 间 分 类 (CTC) 和 注意 力 (attention) 模块 对 编码 特征 进行 解码 输出 。 该 算法 在 多 个 数据 集 (公开 数据 集 ICDAR2013 
和 ICDAR2003 以 及 验证 码 数据 集 ) 上 进行 测试 ， 得 到 识别 准确 率 分 别 为 90.2%，87.4% 和 92.5%， 从 而 证 明了 该 算法 
的 有 效 性 。 实 验 结 果 对 文本 段 识 别 和 应 用 有 重要 意义 。 
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Text segmentation based on integration of CTC and attention 


Wang Xiaonan, Zhang Li, He Sinan 
(Dept. of Electronic Engineering, Tsinghua University, Beijing 100084, China) 


Abstract: Text segment recognition was hard due to the complex background and merged characters, to address this problem, 
this paper proposed a method to recognize text segments in complex scene. Firstly, it designed bidirectional recurrent neural 
network to encode image feature sequence, based on correlation between images and text sequences. Then it used integrated 
connected time classification (CTC) and attention(Attention) module as decoder, to decode and output coding features. The 
method experimented on multiple data sets (public data sets ICDAR2013 and ICDAR2003 and verification code data sets) , the 
recognition accuracy rates were 90.2%, 87.4% and 92.5%, which demonstrated the method’s effectiveness. The experiment 
results are significant to text segment identification and application. 
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合 语言 模型 可 以 使 用 的 优化 方法 如 : 贝 叶 斯 推断 [9 ， 马 尔 可 夫 

随机 场 n” 0， 条 件 随 机 场 02 2 和 概率 图 模型 04 器 。 但 是 引入 

文本 识别 指 的 是 将 一 张 包 含 文本 的 图 片 中 的 文字 提取 并 识 ”语言 模型 的 整体 架构 并 不 是 端 到 端的 , 需要 分 别 训练 各 个 模块 ， 
别 成 文字 字符 串 的 过 程 巾 。 通 常情 况 下 ， 这 个 问题 可 以 划分 为 Jaderberg 等 人 (9 通过 将 卷 积 神经 网 络 特征 级 联 递 归 神 经 网 络 
两 个 阶段 ， 一 个 是 文本 检测 阶段 ， 另 一 个 是 文本 段 识 别 阶 段 。 实现 图 像 序列 化 以 及 序列 特征 提取 ， 这 个 架构 通过 将 语言 模型 
文本 检测 将 图 片 中 的 文本 区 域 检 测 并 用 矩形 框框 出 ， 文 本 识别 ”这 种 强 语言 相关 性 约束 替换 成 了 基于 图 像 序列 的 递归 神经 网 络 ， 
则 读 取 文本 段 图 片 并 识别 其 内 容 。 从 而 实现 了 端 到 端 训练 。Lee 等 人 0 在 此 基础 上 引入 了 基于 
本 文 关注 文本 段 识 别 过程 ， 近 年 来 文本 段 识 别 取得 了 一 定 attention 机 制 的 编 解码 模型 ， 使 得 模型 可 以 从 图 像 特征 序列 中 
进展 ， 从 单个 字符 分 割 识别 到 实现 文本 段 端 到 端 整体 识别 9。 ”选择 特定 序列 进行 解码 。Shi 等 人 0 引入 了 语音 识别 中 的 CTC 
字符 分 割 方面 ， 通 过 阔 值 寻找 投影 直方 图 极 值 的 方法 可 以 实现 ”模块 通过 动态 规划 计算 真 值 序列 出 现 的 概率 ， 并 最 大 化 概率 对 
简单 背景 下 的 单字 切 分 ;复杂 场景 下 ， 通 过 滑 窗 搜索 以 及 字符 ”应 的 对 数 损失 函数 进行 训练 。Breuelll9 对 卷 积 -递归 框架 作 了 改 
间隔 分 类 器 判别 59 的 方法 寻找 字符 分 割 点 也 可 以 实现 切 分 。 文 进 ， 对 输入 加 入 了 几何 归 一 化 部 分 ， 使 得 网 络 整体 的 识别 性 能 
本 段 识别 跟 单字 识别 最 大 的 不 同 还 有 文字 之 前 具有 很 强 的 语义 有 了 进一步 提升 。Bolan 等 人 PRM 对 于 卷 积 模块 的 输入 层 加 入 了 
言 息 , 所 以 要 捕捉 文字 之 间 的 这 种 语义 强 相关 性 。 这 种 情况 下 ， 梯度 投影 直方 图 HOG) 特征 ， 从 而 在 输入 通道 上 加 了 几 个 特 
字符 切 分 和 单字 识别 可 以 结合 语言 先 验 信息 增强 识别 效果 ,， 结 ” 定 的 特征 图 ， 对 于 整体 性 能 也 有 一 些 效 果 提 升 。 
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本 文通 过 将 CTC 和 attention 进行 集成 来 识别 文本 段 。 
Attention 解码 机 制 可 以 充分 利用 编码 特征 序列 进行 特征 筛选 ， 
CTC 通过 概率 计算 实现 预测 值 和 真实 值 的 对 齐 。 通 过 使 两 个 网 
络 共 用 一 个 编码 模块 ， 再 对 解码 层 进 行 损失 函数 加 权 累 加 来 实 
现 模 块 集成 。 实 验 结果 显示 两 者 集成 后 的 网 络 可 以 提高 文本 段 
识别 的 准确 率 ， 同 时 通过 注意 力 权 值 的 可 视 化 过 程 揭示 了 文本 
段 识别 的 内 部 机 制 。 


1 ”联合 CTC-Attention 机 制 


1.1 Attention 编 解 码 模 型 
编 解码 模型 对 于 输入 特征 序列 通过 底层 RNN 进行 特征 编 
码 , 然后 通过 上 层 RNN 解码 网 络 进行 解码 输出 。 基 于 attention 
注意 力 机 制 的 编 解 码 模型 可 以 捕捉 输入 序列 中 跟 输 出 标签 对 应 
的 特定 部 分 。 有 两 种 注意 力 机 制 : 硬 注意 力 机 制 和 软 注意 力 机 
制 。 硬 注意 力 机 制 在 特定 的 时 间 步 上 通过 权 值 选择 特定 的 一 个 
区 域 ， 对 应 的 损失 函数 存在 突变 从 而 导致 网 络 难以 训练 。 软 注 
意 力 机 制 在 特定 的 时 间 步 上 对 所 有 区 域 取 权 值 平均 ， 所 以 更 易 
于 进行 端 到 端 训 练 ， 本 文中 选用 软 注 意 力 机 制 。 
分 别 定义 两 个 RNN 模块 作为 编码 和 解码 模块 ， 一 个 双向 
RNN 作为 编码 模块 ， 对 输入 的 图 像 特 征 序列 进行 编码 ; 另 一 个 
双 层 RNN 作为 解码 模块 ， 产 生 或 者 解码 输出 序列 。 定 义 编码 
的 隐藏 层 状态 为 (hhz,.…hrm)， 解 码 层 的 隐藏 状态 为 
(dy, dz dm) = (hry+1 hrar …hrtrs)。 在 每 个 时 间 步 :上 根据 

编码 隐藏 层 状 态 向 量 计算 注意 力 向 量 ， 定 义 : 
uf = vrtanh(W, hi +W, dẹ) (1) 
af = softmax(uf) (2) 

d, =X ath,(3) 

aE v 和 权 值 矩阵 Wy 和 Wy 是 模型 中 可 训练 的 参数 ,vb 是 
一 个 向 量 , Wy 和 Wiz 是 权 值 矩 阵 。 向 量 ut KEN Ty, 第 i 个 元 
素 对 应 注意 力 集中 第 i 个 编码 隐藏 状态 hi 对 应 的 打分 值 。 这 些 
得 分 值 通过 softmax 函数 进行 正则 归 一 化 生成 基于 编码 隐藏 状 
态 向 量 的 注意 力 掩 码 。 最 后 将 di 和 dt 级 联 作 为 新 的 隐藏 状态 


输入 到 下 一 个 时 间 步 的 模型 中 并 作为 当前 时 刻 的 输出 预测 向 量 。 


对 于 输入 序列 x ， 真 值 序列 1， 对 应 的 损失 函数 : 
lossattention = —InP(llx) = —YyInP(ly|x% bu-1) (4) 
其 中 i,_1 为 当前 真 值 标签 前 的 所 有 字符 。 
1.2 CTC 序列 对 齐 
CTC 通过 引入 特定 的 映射 规则 , 对 标签 序列 进行 反映 射 计 
算 在 映射 空间 中 的 生成 概率 从 而 实现 特征 序列 和 标签 序列 的 自 
动 对 齐 ,CTC 忽略 了 标签 序列 中 每 个 标签 具体 对 应 的 位 置 , 而 计 
算 标 签 序列 1 整体 在 预测 结果 yy = yi Yo Yr 的 后 验 概率 。 所 
以 当 使 用 该 概率 值 的 负 对 数值 作为 训练 目标 时 只 需要 输入 图 像 
和 对 应 的 标签 序列 ， 而 避免 了 标记 每 个 字符 对 应 的 位 置 。CTC 
计算 条 件 概率 的 原理 如 下 : 输入 标签 序列 y = yy, Vo -Yr 其 中 
T 对 应 序列 的 长 度 ,yt € RII ( 1 =Tublank，I 包 含 所 有 的 
字符 标签 , blank 为 额外 的 空格 标签 ), 一 个 序列 映射 函数 B 定义 


空格 字符 。 通 


00” 为 “hello” 
L 的 后 验 概率 总 和 : 
PUly) = 2r:pooD=LDCry7) 


牛 后 验 概 率 定 义 为 通 


C hinXiv fF! 
PER a 


LEH i 


其 中 :出 现 的 后 验 概率 定义 为 p(rly) = Wave,» Yr 
间 惟 上 时 对 应 标签 re 的 概率 。 直 接 计算 式 (5) 对 应 的 为 时 间 复 


杂 度 较 高 , WS 


杂 度 降低 。 


| iL 


在 xe1”，B 包 含 两 种 操作 : 首先 溢出 重复 的 字符 ， 然 后 移 除 
过 B RRAS n CA Lo 例如 B 映射 “一 hh-e-l-ll- 
DILKA AY oo BR 


©) 
是 在 时 


算 前 向 -后 向 向 量 可 以 有 


对 于 输入 序列 x， 真 值 序列 ! ， 对 应 的 损失 函数 ; 


1.3 联合 CTC-Attention 

联合 CTC-Attention 
其 中 CTC 和 attention J 
1 所 示 。 这 种 集成 方法 ， 既 


一 InP(Clx) = 一 InPOy|D) 


机 制 充分 利用 当前 人 


网 络 结构 如 图 
过 attention 架构 中 的 编 解 码 
所 有 特征 信息 ,又 可 以 通过 CTC 


效 将 复 


(6) 


将 attention 模块 和 CTC 模块 进行 集成 ， 
个 编码 RNN 模块 ， 


Le LN Et 


中 通过 计算 全 FL 
4 


对 特征 信息 进行 充分 利用 。 
模块 中 并 入 CTC 模块 ， 从 T 
了 网 络 的 识别 性 外 
文本 段 的 内 部 机 理 。 网 络 的 损失 函数 设计 为 


VAD 


= 


当前 位 置 后 的 特征 信息 ， 从 本 
同时 , CTC-attention 通过 在 attention 


加 速 了 网 络 的 收敛 速度 ， 
Éo X} Attention 向 量 的 可 视 化 过 程 可 


失 函 数 的 权 值 累加 ， 


又 提高 


lossan = (1 — @) * losSattention + @ * 10SSctc 


EH w 为 可 以 学 习 的 参数 ， 范 围 
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Attention Decoder 
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图 像 


类 -注意 力 网 络 结构 图 


(R 表示 RNN 4 


2 ”实验 设计 


2.1 数据 集 


ICDAR2013 数据 入 
前 两 者 的 训练 集 。 
ICDAR2003 (1C03): 


包括 251 个 


和 元 ,A 表示 注意 力 层 ,CNN 表示 卷 积 社 


狼 据 集 上 进行 算法 实验 。 
R, YZM 数据 集 ， 使 用 Synth90k 数据 集 作为 


街道 文本 识别 数据 集 ， 其 中 测试 外 
A A 860 个 切割 得 到 的 字段 图 片 ; 


以 揭示 网 
两 个 模块 损 


ICDAR2003 数据 集 ， 


(7) 


经 网 络 ) 


aur 


ICDAR2013 C13): 街道 文本 识别 数据 集 ， 其 中 测试 集 包括 
1010 个 切割 得 到 的 字段 图 片 ， 大 部 分 图 片 来 自 于 ICDAR2003 
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数据 集 ; YZM: 验证 码 数据 集 , 训练 集 包 含 两 万 张 验证 码 图 片 ， 


测试 集 包 含 1000 张 测试 验证 码 
英文 字母 且 背 景 比 较 模 糊 ，Synth90k: 数据 集 包 含 9 百 万 个 合 

字 人 
可 以 被 用 来 做 为 文本 段 识 


成 的 切割 字段 图 


2.2 ”实现 细节 


， 图 片 内 容 中 包含 数字 和 


实验 采用 图 


示 的 架构 。 编 码 层 为 双 
节点 数目 为 256; 解码 


是 : CTC 模块 和 


E+ Attention 的 双 


LSTM 单元 的 隐藏 层 节点 数 
计算 方法 如 式 〈1) 所 示 


于 输入 图 


放 缩 后 的 图 片 输入 到 CNN Jai 
以 直接 序列 化 再 输入 到 上 层 
的 区 间 中 从 而 采用 对 应 芯 
[108,140]、[140,256]、 


宽度 ), 对 于 各 个 区 


测试 过 程 中 采取 同样 


ARYA SPE, # 


1 所 示 的 网 络 结构 设计 , CNN 部 分 采用 图 2 所 
向 的 LSTM， 每 个 LSTM 单元 的 隐藏 层 
层 为 两 个 模块 的 集成 ， 这 两 个 模块 分 别 
层 LSTM 解码 模块 ， 解 码 
目 都 设置 为 128。Attention 向 量 的 


先 对 图 片 进行 归 一 化 。 


首先 保持 图 片 的 长 宽 


妈 片 放 缩 为 高 度 为 32, 宽度 为 W。 


区 间 的 解码 长 度 分 另 


情况 分 别 进行 补 零 和 


网 络 训 练 采 | 


特征 图 的 长 度 恰好 为 1, 可 
民 据 W 的 大 小 划分 到 指定 
度 。 区 间 列 表 为 : [64,108]， 
其 中 Wyar 表示 图 片 的 最 大 
| 对 应 为 11,17,19,22,32. 在 
的 策略 , 然后 对 于 W<64 以 及 W>Wiax 的 
缩放 到 宽度 为 Wax。 

方法 是 随机 梯度 下 降 法 ， 通 过 反 向 传播 来 


计算 每 个 层 的 梯度 。 其 中 , RNN 部 分 使 用 时 间 反 向 传播 法 中 来 


计算 对 应 的 微分 误差 。 


应 的 微分 误差 。 


更 用 前 向 -后 向 法 PC 来 计算 对 
训练 时 网 络 参 数 初 始 化 使 用 截 尾 高 斯 初始 化 方 
法 ， 其 中 均值 为 0.0， 截 尾 标 准 差 为 0.05。 网 络 优化 方法 使 用 


Adam 算法 , 初始 学 习 率 为 0.001, betal 为 0.9, beta2 为 0.999， 


Adam 算法 可 以 自 适 


其 中 : MREZI 
量 ，N 代表 数据 集中 必 


评价 指标 采用 的 是 


S 

还 

A | 
Fes 
So 

x 

o} 

H 

[=] 


应 的 计算 每 个 时 刻 的 学 习 率 。 
EMX accuracy， 计 算 方 法 : 


(8) 
E 确 的 样本 数 


一 Go fm ee Pool 


Max Pool 
Conv 3x3 a 
= 2x2 


LE LEELA A 
表 1 文本 段 数据 集 实验 结果 (指标 为 正确 率 ,单位 为 %) 

算法 IC13 YZM 

CTC 86.7 90.0 

Attention 87.2 91.3 
CTC-Attention(w=0.2) 87.4 92.5 
CTC-Attention(a=0.5) 86.0 91.0 
CTC-Attention(a=0.7) 85.5 89.4 


从 表 1 可 以 看 出 ，CTC 和 attention 4 


FE 解码 端 进行 集成 可 以 


提升 文本 段 识 别 的 整体 准确 率 ， 其 中 当 a 为 0.2 时 提升 幅度 最 


大 ， 此 时 在 三 个 数据 集 上 均 有 最 好 的 效 表 


别 准确 率 有 一 定 下 降 趋 势 。 


下 面 列 出 本 文 算法 和 当前 主流 算 


随 着 a 升 高 整体 识 


E 两 个 公开 数据 人 


aur 


oe i me 


可 以 看 出 ， 本 文 算法 在 这 


法 要 好 。 


表 2 IC03 和 IC13 文本 


两 个 公开 数据 集 上 效果 比 一 些 


主流 算 


段 识 别 结果 (指标 为 正 


= 


前 率 ,单位 为 9%) 


算法 IC03 IC13 
CRNN(CTC)!!®! 89.4 86.7 
文献 [16] 89.6 81.8 
PhotoOCR"! 81.2 82.8 
文献 [17] (Attention) 88.8 87.2 
CTC-Attention(a=0.2) 90.2 87.4 


| , Max Pool = ar 
1x2 


E Conv 3x3 = Conv 3x3 
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2.3 ”实验 结果 


分 别 在 IC03、 
个 数据 集 包含 自然 场景 文本 上段 区 


2 ” 卷 积 神经 网 络 具 体 架构 图 


IC13、YZM 三 个 数据 集 上 进行 实验 ， 前 两 
片 ， 最 后 一 个 数据 集 包 含 人 工 


验证 码 图 片 ， 其 特点 都 是 背景 复杂 ， 文 字 前 景 和 背景 都 比较 模 


糊 。 对 于 参数 a 我 们 分 别 选择 0.2,0.5,0.7 进行 实验 对 比 ， 识 别 
准确 率 如 表 1 所 示 。 


为 了 评估 算法 复杂 度 和 模型 
上 进行 训练 的 过 程 中 每 隔 一 
上 的 测试 准确 率 。 实 验 选 ] 
attention 的 测试 结果 作对 比 ， 结 果 

从 图 3 可 以 看 出 ， 


wing 


Sung 
Ar a 


a 
可 


的 收敛 速度 , 在 Synth90k Bey 


Hi 


个 训练 批 次 输 


其 在 IC13 测试 


过 在 解码 attention JES 
练 速 度 ， 同 时 也 使 整体 涡 
集 上 的 表现 比 这 两 个 方法 都 要 好 。 


取 参 数 a 为 0.2 的 模型 ,同时 和 CTC 
如 图 3 所 示 。 

在 收敛 的 情况 下 ，attention 方法 比 CTC 
方法 在 测试 集 上 的 表现 更 好 ， 但 是 attention 方法 存在 训练 时 间 
复杂 度 较 高 、 收 敛 较 慢 的 问题 。 而 CTC 方法 训练 过 程 收敛 相对 
更 快 ， 但 是 其 测试 准确 度 不 如 attention 方法 。CTC-attention iff 
RIRA CTC 模块 ， 加 速 了 


attention AY iI 


I 试 性 能 得 


其 收敛 时 在 测试 


( 横 轴 表示 训练 批 次 , 纵 轴 表示 IC3 测试 准 


2.4 可 视 化 分 析 


123 45 67 86 9 10 
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为 了 更 好 地 揭示 网 络 的 工作 原理 ， 通 过 对 
的 权 值 可 视 化 来 分 析 网 络 的 了 


确 率 ) 


[ 作 机 制 。 对 于 


attention 解码 层 


式 (2) HY af Hea 
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编码 特征 序列 中 第 i 个 编码 向 量 作用 于 第 t 个 解码 向 量 的 权 值 
大 小 。 们 通过 对 每 个 有 效 时 间 步 进行 at 的 大 小 可 视 化 可 以 分 
析出 对 于 当前 解码 时 间 步 哪些 区 域 其 起 着 主要 作用 。 
基于 上 述 分 析 ， 图 2 中 对 输入 的 图 片 进行 CNN 特征 提取 
和 双向 LSTM 编码 后 得 到 的 特征 序列 ,经 过 attention 层 后 对 编 
码 特 征 序列 进行 权 值 累加 导入 到 解码 LSTM 中 。 通 过 权 值 向 量 
进行 可 视 化 可 以 看 出 上 述 过 程 中 对 于 特定 的 解码 位 置 哪些 特征 
区 域 起 着 主要 作用 。 图 4 中 当 对 应 区 域 的 编码 特征 序列 起 作 
的 程度 越 大 ,图片 中 对 应 的 像素 值 越 高 ,相应 的 区 域 就 会 越 亮 。 
可 视 化 结果 揭示 了 文本 段 识别 的 内 部 机 理 ， 对 于 识别 结果 中 的 
每 个 字符 ， 恰 好 是 其 相应 位 置 的 图 像 区域 起 着 主要 作用 ， 
Attention 通过 对 不 同 区 域 分 配 不 同 的 权 值 来 体现 对 特定 标签 字 
符 的 “注意 力 ”。 


m 


i 


图 4 注意 力 权 值 可 视 化 
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文本 段 识别 的 传统 识别 方法 是 先 切 分 再 结合 语言 模型 进行 
后 处 理 ， 这 个 过 程 会 造成 每 一 步 误差 的 累积 ， 影 响 整体 识别 的 
准确 率 。 文 本 分 析 了 设计 端 到 端 网 络 进行 文本 段 识 别 的 必要 性 ， 
对 于 字符 之 间 存 在 粘连 或 者 文字 图 片 的 背景 比较 复杂 时 ， 传 统 
字符 切 分 方法 的 错误 率 较 高 ， 采 用 整体 端 到 端 识别 可 以 较 好 的 
解决 这 种 难 切 割 问题 。 文 本 分 析 了 目前 两 种 端 到 端的 方法 (CTC 
和 attention) 的 原理 以 及 各 自 的 优 缺 点 ， 设 计 了 一 个 集成 网 络 
进行 文本 段 端 到 端 识 别 。 在 多 个 数据 集 上 的 实验 结果 表明 ， 通 
过 采用 共享 编码 层 以 及 不 同 解码 层 的 集成 ， 该 网 络 可 以 提高 文 
本 段 识别 的 整体 准确 率 。 本 文 对 网 络 进行 文本 段 图 片 识别 的 工 
作 机 制 进行 了 可 视 化 分 析 ， 对 网 络 解码 过 程 进行 直观 的 理解 和 


认识 。 


参考 文献 : 


[1] ZAR. 中 文 印刷 体 文档 识别 技术 [M]. 北京 : 科学 出 版 社 , 2010. 
(Wang Kejun. Chinese printed document recognition technology [M]. 
Beijing: Science Press, 2010. ) 

[2] KR. 自然 场景 中 文本 识别 技术 研究 及 实现 [D]. 哈尔滨 : 哈尔滨 工业 
大 学 , 2010. (Wu Rui. Research and implementation of text recognition 
technology in natural scenes [D]. Harbin: Harbin Institute of Technology, 


2010.) 


[B] 张 当中 . 汉字 识别 技术 综述 [J]. 语言 文字 应 用 , 1997 (2): 79-88. (Zhang 
Dangzhong. An overview of chinese character recognition technology [J]. 
Linguistic Writing, 1997 (2): 79-88. ) 

[4] Ye Q, Doermann D. Text detection and recognition in imagery: a survey [J]. 
IEEE Trans on Pattern Analysis & Machine Intelligence, 2015, 37 (7): 1480- 
1500. 

[5] 潘 炜 深 , SAL, 汉子 勇 . 基于 多 尺度 梯度 及 深度 神经 网 络 的 汉字 识别 
[J]. 北京 航空 航天 大 学 学 报 , 2015, 41 (4): 751-756. (Pan Weishen, Jin 
Lianwen, Feng Ziyong. Chinese character recognition based on multi-scale 
gradient and deep neural network [J]. Journal of Beijing University of 
Aeronautics and Astronautics, 2015, 41 (4): 751-756. ) 

[6] Wik. BRBRLFMPMLATRMN AAA [D] 北京 : 中 国 科学 
院 大 学 , 2016. (He Xin. Research on text segmentation and text line 
recognition in natural scenes [D]. Beijing: University of Chinese Academy 
of Sciences, 2016. ) 

[7] Bissacco A, Cummins M, Netzer Y, et al. PhotoOCR: reading text in 
uncontrolled conditions [C]// Proc of IEEE International Conference on 
Computer Vision. 2013: 785-792. 

[8] Zhang Dongging, Chang Shihfu. A Bayesian framework for fusing multiple 
word knowledge models in videotext recognition [C]// Proc of IEEE 
Computer Society Conference on Computer Vision and Pattern Recognition. 
2003: 528-533. 

[9] Weinman J, Learned-Miller E. Improving recognition of novel input with 
similarity [C]// Proc of IEEE Computer Society Conference on Computer 
Vision and Pattern RecognitionIEEE Computer Society Conference on. 
2006: 308-315. 

[10] Chen Datong and Odobez J. Video text recognition using sequential monte 
carlo and error voting methods [J]. Pattern Recognition Letter, 2005, 26 (9): 
1386-1403. 

[11] Weinman J, Learned-Miller E, Hanson A. A discriminative semi-Markov 
model for robust scene text recognition [C]// Proc of International 
Conference on Pattern Recognition. 2008: 1-5. 

[12] Jawahar C V. Top-down and bottom-up cues for scene text recognition [C]// 
Proc of IEEE Computer Society Conference on Computer Vision and Pattern 
Recognition. Washington DC: IEEE Computer Society, 2012: 2687-2694. 

[13] Shi Cunzhao, Wang Chunheng, Xiao Baihua, et al. Scene text recognition 
using part-based tree-structured character detection [C]// Proc of IEEE 
Computer Society Conference on Computer Vision and Pattern Recognition. 
Washington DC: IEEE Computer Society, 2013: 2961-2968. 

[14] Wachenfeld S, Klein H U, Jiang Xiaoyi. Recognition of screen-rendered text 
[C]// Proc of International Conference on Pattern Recognition. 2006: 1086- 
1089. 

[15] Lee S H, Kima J H. Complementary combination of holistic and component 
analysis for recognition of low-resolution video character images [J]. Pattern 
Recognition Letters, 2008, 29 (4): 383-391. 


[16] Jaderberg M, Simonyan K, Vedaldi A, et al. Deep structured output learning 


201806.00095v1 


chinaXiv 


录用 稿 


for unconstrained text recognition [J]. Eprint Arxiv, 2015, 24 (6): 603-611. 

[17] Lee C Y, Osindero S. Recursive recurrent nets with attention modeling for 
ocr in the wild [C]// Proc of IEEE Conference on Computer Vision and 
Pattern Recognition. 2016: 2231-2239. 

[18] Shi Baoguang, Bai Xiang, Cong Yao. An end-to-end trainable neural 
network for image-based sequence recognition and its application to scene 
text recognition [J]. IEEE Trans on Pattern Analysis and Machine 
Intelligence, 2017, 39 (11): 2298-2304. 

[19] Breuel T M. High performance text recognition using a hybrid 
convolutional-LSTM implementation [C]// Proc of IAPR International 


Conference on Document Analysis and Recognition. Washington DC: IEEE 


C hi naX 合作 其 Fl 


LER, F: 复杂 场景 文本 段 识别 
Computer Society, 2017: 11-16. 

[20] Su Bolan, Lu Shijian. Accurate recognition of words in scenes without 
character segmentation using recurrent neural network [J]. Pattern 
Recognition, 2016, 63: 397-405. 

[21] Graves A, Schmidhuber J. Framewise phoneme classification with 
bidirectional LSTM and other neural network architectures [J]. Neural Netw, 
2005, 18 (5): 602-610. 

[22] Graves A, Gomez F. Connectionist temporal classification: labelling 
unsegmented sequence data with recurrent neural networks [C]// Proc of 


International Conference on Machine Learning. 2006: 369-376. 


